#/usr/bin/perl <:encoding(utf8)", "BAO1_sortie_$rubrique.txt"); open(OUTXML, ">:encoding(utf8)", "BAO1_sortiexml_$rubrique.xml"); #on écrit la tête du fichier XML : print OUTXML "\n"; print OUTXML "\n"; #Déclaration de la racine #l'ensemble des données extraites print OUTXML "\n"; #on initialise un compteur et une table de hachage pour traiter les éventuels doublons : my %dico_des_titres =(); my $i = 0; #----------------------------------------------------------- #Appel d'un sous-programme qui va parcourir l'arborescence de manière récursive : &parcoursarborescencefichiers($rep); #on passe le repertoire contenant les fichiers à traiter en argument du sous-programme #----------------------------------------------------------- #fermeture des fichiers : close(OUT); #fermeture du fichier texte print OUTXML "\t\n"; print OUTXML "\n"; close(OUTXML); #fermeture du fichier XML exit; #----------------------------------------------------------- #Le sous-programme qui prend en argument le répertoire à traiter: sub parcoursarborescencefichiers { #------------on récupère la racine du chemin #shift prend le premier élément de la liste et le renvoie : my $path = shift(@_); #------------ouverture du contenu du répertoire : #on sait que la racine est un dossier donc utilisation de "opendir" opendir(DIR, $path) or die "can't open $path: $!\n"; #-----------lecture du répertoire : #renvoie une liste de ressources du répertoire my @files = readdir(DIR);#examiner la liste de ressources #fermeture du répertoire : closedir(DIR); #boucle sur chacun des éléments de la liste des ressources du répertoire: foreach my $file (@files) { #on passe au fichier suivant si le fichier est caché : "." ou ".." next if $file =~ /^\.\.?$/; #reconstruction du chemin relatif où l'on se trouve : $file = $path."/".$file; #si le chemin relatif conduit à un répertoire : # -d permet de vérifier que $file est un répertoire if (-d $file) { #si on est dans un répertoire, on recommence toute la procédure avec un nouvel argument (chemin que l'on vient de construire) : &parcoursarborescencefichiers($file); #recurse! } #si le chemin relatif conduit à un fichier : #-f permet de vérifier que $fil est un fichier if (-f $file) { #----------TRAITEMENT à réaliser sur chaque fichier : #-----------------------Lecture du fichier : #si le fichier a une EXTENSION XML et la RUBRIQUE passée en argument au programme : if ($file =~/$rubrique.+\.xml$/) { #incrémentation du compteur, message dans la console : print $i++, "Traitement de :", $file, "\n"; print "##------------------------------------------##\n"; #-----BAO1 : perl - XML::RSS-------------------------------- #on parse le fichier : eval {$rss->parsefile($file);}; #si il y a eu erreur if( $@ ) { $@ =~ s/at \/.*?$//s; # remove module line number print STDERR "\nERROR in '$file':\n$@\n"; } #-------------------Extraction : else { foreach my $item (@{$rss->{'items'}}) { #on extrait le titre my $titre = $item->{'title'}; #on extrait la description my $description = $item->{'description'}; #----------------------------------------------------------------------------- #---------------Nettoyage du texte : #A l'aide d'un autre sous-programme on nettoie les "cochonneries" des contenus textuels qu'on a extrait ($titre, $description) = &nettoyage($titre, $description); #--------------Traitement des doublons : #si le titre n'existe pas dans le dictionnaire $dico_des_titres : if (!(exists $dico_des_titres{$titre} )) { #alors il n'y a pas de doublons et on effectue le traitement suivant : #on ajoute le titre et la description au dictionnaire $dico_des_titres{$titre}=$description ; #Ecriture des fichiers de sortie : #------------VERSION TXT--------------------- print OUT "TITRE : ", $titre,"\n"; print OUT "DESCRIPTION :", $description,"\n"; print OUT "-------\n"; #------------VERSION XML--------------------- print OUTXML "\t\t\n" ; print OUTXML "\t\t\t$titre\n"; print OUTXML "\t\t\t$description\n"; print OUTXML "\t\t\n"; #message dans la console : print "$file est le", $i++,"\n"; #si le titre existe déjà dans le dictionnaire, on ne fait rien } } } } } } } #---------------------------------------------- #le sous programme qui nettoie le contenu textuel extrait : #Entrée : 2 variables textuelles #Sortie : les 2 variables textuelles nettoyées sub nettoyage { #récupérer ce qui a été passé en argument au programme : @ARGV my $titre = $_[0]; my $description = $_[1]; #--------Nettoyage : #enlever les structures [CDATA[ ... ]] $description=~s/^<;!\[CDATA\[//; $description=~s/\]\]>$//; $titre=~s/^<;!\[CDATA\[//; $titre=~s/\]\]>$//; #rempalcer le code par des guillemets simples : $description =~s/'/'/g; $titre =~s/'/'/g; #remplacer le code par des guillemets doubles : $description =~s/"/"/g; $titre =~s/"/"/g; #suppresion des balises $description =~s/<.+?>//g ; $titre =~s/<.+?>//g ; #remplacer & par "et": $description =~s/&/et/g ; $titre =~s/&/et/g ; #rajouter un point à la fin des titres $titre=~s/$/\./g; #renvoyer le contenu textuel nettoyé : return $titre, $description; }